期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 基于跨语言神经主题模型的汉越新闻话题发现方法
杨威亚, 余正涛, 高盛祥, 宋燃
计算机应用    2021, 41 (10): 2879-2884.   DOI: 10.11772/j.issn.1001-9081.2020122054
摘要319)      PDF (758KB)(188)    收藏
针对汉越跨语言新闻话题发现任务中汉越平行语料稀缺,训练高质量的双语词嵌入较为困难,而且新闻文本一般较长导致双语词嵌入的方法难以很好地表征文本的问题,提出一种基于跨语言神经主题模型(CL-NTM)的汉越新闻话题发现方法,利用新闻的主题信息对新闻文本进行表征,将双语语义对齐转化为双语主题对齐任务。首先,针对汉语和越南语分别训练基于变分自编码器的神经主题模型,从而得到单语的主题抽象表征;然后,利用小规模的平行语料将双语主题映射到同一语义空间;最后,使用 K-means方法对双语主题表征进行聚类,从而发现新闻事件簇的话题。实验结果表明,所提方法相较于面向中英文的隐狄利克雷分配主题改进模型(ICE-LDA)在Macro-F1值与主题一致性上分别提升了4个百分点与7个百分点,可见所提方法可有效提升新闻话题的聚类效果与话题可解释性。
参考文献 | 相关文章 | 多维度评价